#Deepseek V4
CPU價格持續上漲!晶片行業十大要聞解讀
晶片及CPU價格持續上漲:英特爾和AMD的CPU價格自2月份以來普遍上漲了10-15%,且國際大廠正在醞釀在第三季度再次上調價格。隨著AI場景從訓練向推理及智能體演進,CPU在算力架構中的地位不斷提升。DeepSeek V4適配華為昇騰生態,半導體行情爆發:4月27日,DeepSeek V4大模型適配華為昇騰生態,多家國產晶片完成適配,市場開始重估國產算力的商業化前景,A股半導體類股集體走強。4月27日當天,科創50指數大漲3.76%,半導體產業鏈全線走強。4月28日早盤,算力晶片概念延續活躍態勢。氦氣等工業氣體價格持續上漲:受供應鏈緊張影響,高純氦氣(40L)價格一個月內從550元飆升至5000元,氦氣概念股因此大漲。據瞭解,三星和SK海力士此前已表示,由於原材料中斷,光刻膠等產品的供應鏈面臨嚴重衝擊。盛美上海等半導體裝置股下跌:4月28日,半導體裝置股震盪下挫,盛美上海跌超10%,至純科技逼近跌停,芯源微、矽電股份等跟跌。消息面上,盛美上海發佈的一季報顯示其歸母淨利潤同比大幅下滑57.66%。台積電以"二倍速"推進擴產:為應對AI與高性能計算需求的爆發式增長,台積電正以"二倍速"推進擴產計畫,今年將同時有五座2nm晶圓廠進入產能爬坡階段,2nm首年產出將較3nm同期提升約45%。輝達市值突破5.2兆美元,閃迪首次站上1000美元:4月27日美股交易中,輝達大漲4.0%,市值突破5.2兆美元,創下全球上市公司市值新紀錄。儲存晶片股閃迪暴漲8.11%,收盤價首次站上1000美元,受益於NAND快閃記憶體強勁的定價動能。韓國股市超越英國,躍升全球第八:受AI和半導體熱潮推動,韓國上市公司總市值今年來增長逾45%,達到4.04兆美元,超越英國躋身全球第八大股票市場。三星電子與SK海力士兩大儲存晶片巨頭佔據韓國綜指總市值的四成以上。美伊談判陷入僵局持續推高油價,半導體材料供應鏈承壓:美國白宮證實川普團隊正討論伊朗提出的談判新方案,但談判幾乎無進展,荷姆茲海峽局勢再度升級導致油價持續上漲。中東緊張局勢進一步加劇了半導體原材料(氦氣、光刻膠等)的供應緊張局面。電裝將撤回收購羅姆報價,日本功率器件三強合併將加速:因未能獲得羅姆公司同意,日本電裝集團正考慮撤回對羅姆的收購提案。羅姆已確定與東芝、三菱電機進行三家合併磋商。三強合併後的新實體將佔據全球功率半導體約11%的市場份額,規模位列全球第二,僅次於英飛凌。費城半導體指數結束18連陽,晶片股走勢劇烈分化:4月27日美股收盤,費城半導體指數下跌1.34%,結束了長達18個交易日的連續上漲紀錄。晶片股走勢呈劇烈分化態勢,Arm跌超8%,邁威爾科技、AMD跌超3%,而高通則大漲逾7%。 (晶片行業)
FORTUNE雜誌—梁文鋒,不再孤勇
4月的最後一周,梁文鋒做了一件簡單而精準的事。天眼查資訊顯示,4月27日,DeepSeek註冊資本由1000萬元增至1500萬元,增資幅度50%。梁文鋒的直接持股從1%躍升至34%,寧波程恩(合夥企業)持股則從99%降至66%,這位低調的創始人由此可支配公司約84%的股份。看似一次內部股權結構的微調,微妙之處在於時機,因其恰好發生在一場引爆中國AI產業鏈的旗艦發佈之後。三天前,DeepSeek-V4帶著1.6兆參數的開源模型登場,再次改寫了遊戲規則。而梁文鋒在這個時間點強化控制權,傳遞了一個明確的訊號——“孤勇者”的時代或許已經結束,屬於梁文鋒的時代則剛剛開始。圖片來源:視覺中國中國大模型的“DeepSeek時刻”4月24日,DeepSeek-V4預覽版正式上線並同步開源。這是梁文鋒迄今交給世界的最硬核的答案。V4包含兩個版本:V4-Pro總參數達1.6兆(啟動490億)、V4-Flash總參數2840億(啟動130億),雙版本均原生支援百萬token超長上下文。在性能維度上,24項基準測試的評估顯示,V4-Pro在其中3項中超越了所有參與比較的大語言模型;V4在MMMU多模態基準測試中較前代提升了21.4分,複雜場景理解能力顯著增強。更深遠的變化藏在效率裡。相比上一代V3.2,V4的單token推理算力需求下降了73%,KV快取被壓縮到原來的十分之一。DeepSeek自己在論文中也坦率承認——V4-Pro-Max的表現“小幅超越當前的領先開源模型,並高於GPT-5.2和Gemini-3.0-Pro,但仍然落後於GPT-5.4和Gemini-3.1-Pro,差距大概在三到六個月”。這句話傳遞了兩個關鍵資訊:中國大模型正以前所未有的速度逼近第一梯隊,而與此同時,這次發佈並未改變中美頂級大模型之間的基本格局——追趕仍在繼續。正是這種謙遜裡的“實誠”,讓整個行業的價值在這場效應中重新分配。在V4開源模型的衝擊下,市場給出了極其“教科書式”的反饋。最顯著的效應之一,是當日大模型類股的兩極分化。智譜收盤跌9%,盤中最大跌幅超12%;MiniMax收跌9.44%,盤中一度跳水超12%。“Token第一股”迅策收盤也跌近16%,成為當日港股科技類股跌幅最大的標的之一。與此同時,國產晶片類股全線爆發:華虹半導體港股盤中漲約17%,收漲15%;中芯國際收漲超10%。摩根大通將“大模型回呼”與“恆生指數當日上漲0.2%”的事實並列在一張結論表中,認為這並非系統性風險,而是一場產業鏈內部價值重分配在資本市場的集中定價,並稱DeepSeek-V4的發佈是“行業利多,而非零和衝擊”。為何如此樂觀?在摩根大通的分析框架裡,V4事實上強化了中國LLM行業的三個關鍵支柱——算力供應釋放、定價紀律和結構性成本曲線壓縮。DeepSeek一直在其分析師“4-5月事件日曆中最大的單一負面競爭催化劑”中佔據重要位置,隨著V4落地並被消化,這一不確定性正式出清了。招商證券指出,1M token上下文的V4全系標配“開源SOTA兌現,但並未全面超越海內外旗艦競品”,意味著競爭加劇但未到格局重塑的地步。瑞銀報告也仍然看好智譜在編碼領域的持續領先地位和MiniMax在V4未著重強調的多模態領域的差異化定位。但不得不承認的另一面是,DeepSeek的開源策略將大大擠壓其它大模型公司在B端市場的議價空間,畢竟企業客戶有了更多開源模型的選擇權,大模型公司的“純技術稀缺性溢價”也隨之下降。而且,這些公司還面臨一個共同的定價壓力:DeepSeek預告下半年昇騰950出貨後V4-Pro價格還會大幅下調,這會進一步壓縮模型的定價空間。“國芯+國模”:國產AI的雙向奔赴DeepSeek-V4的真正敘事,從來不僅僅在模型本身。很長一段時間裡,中國頂級大模型的訓練與推理幾乎完全依賴輝達的GPU和CUDA生態,國產晶片扮演的角色不過是“備選項”。但這一次,行業慣例發生了根本逆轉。DeepSeek-V4並未向輝達和AMD提供早期存取權,反而優先開放給華為昇騰,從而從設計階段就開始了芯模協同最佳化,獲得了數周時間進行底層適配,包括指令級、算子庫和推理框架。在深度最佳化後,V4在華為昇騰晶片上的推理速度較初期版本提升了整整35倍,華為CANN框架與輝達CUDA的程式碼相容性已逼近95%。而且這種“Day 0”等級的適配已從華為昇騰蔓延至更廣闊的本土晶片陣容,包括寒武紀、沐曦、海光、摩爾線程(FP8)、崑崙芯、平頭哥真武、天數等主流國產AI晶片都迅速實現了全量適配與推理部署。鏈式反應由此放射。數月之前,據The Information援引知情人士消息,阿里、字節和騰訊已累計訂購數十萬顆華為AI晶片。這不是一次試驗,而是一項“協調一致的努力,旨在建立一個純國產的AI技術堆疊”。2025年全年,國產AI晶片在國內市場的份額已躍升至41%,其中華為昇騰佔據近半。輝達曾在這個市場上佔據90%以上的絕對壟斷地位,如今,不可動搖的格局開始鬆動。中銀國際指出這一鏈條的深層意義:“國產大模型已基本跑通全端國產化,理論上已形成從底層硬體、基礎軟體、平台服務到上層應用、安全體系的完整技術鏈條,國產算力類股迎來質變臨界點”。華泰證券研報也表示,市場容易被“降本”二字迷惑,但真正的邊際變化,在於長上下文成本的斷崖式下降將讓複雜Agent、多文件分析、長周期任務等場景變得可用——推理呼叫量與儲存訪問頻次將隨之擴張。顯然,無論外界如何評價,梁文鋒截至目前仍然保有不被任何人設計好的時間線。他自掏腰包投入DeepSeek的資金據傳累計超過200億元。他曾被媒體貼上所有這些標籤——“不融資”、“不接受外部資本”、“不被任何人的商業化時間表綁架”。他營運著一家近乎“研究機構”而非商業公司的心態。只是即使是這位“AI隱士”,也不得不在2026年向現實邁出了一步。近期有消息稱DeepSeek正啟動成立以來的首次外部股權融資,以超100億美元的估值,計畫募集不少於3億美元資金。在V4面世之際,梁文鋒在融資啟動和內部增持方面同步推進,無疑是為未來的IPO鋪路,從而全面激發人才留存與發展。而他在融資真正落地前搶先出手加碼控制權,傳遞了清晰的訊號:資本可以進來,但控制權不在談判桌上。值得注意的是,DeepSeek-V4的發佈公告引用了《荀子》:“不誘於譽,不恐於誹,率道而行,端然正己。”這些話由DeepSeek自己寫上,指向某種遠超股價漲跌的東西,其中最關鍵的是“國芯+國模”的適配處理程序。4月27日,中國信通院宣佈,正式啟動DeepSeek V4國產化適配測試,推動模型與國產軟硬體深度協同、加速產業落地。本次測試依託工信部重點實驗室與AISHPerf基準體系開展,覆蓋晶片、伺服器、一體機、叢集、開發工具鏈、智算平台等全端AI軟硬體產品,聚焦DeepSeek V4全系列模型的推理、微調流程,並形成立體化評測體系。DeepSeek的股權變更可被視為其正式融入主流商業競爭的號角,梁文鋒也將不再是在中國大模型發展路上那個“孤勇者”。而這條路,是用國產算力鋪就的。 (財富FORTUNE)
國家級背書!中國信通院牽頭測試,DeepSeek V4改寫中國AI格局
近日,信通院正式官宣——啟動DeepSeek V4的國產化適配測試工作,這釋放了什麼訊號?簡單說,它是工信部直屬的科研事業單位,毫無疑問的“國家隊”!咱們平時聽到的5G、工業網際網路相關的產業規劃、技術標準,很多都有它的身影。這次由它牽頭做適配測試,真正的“國家級背書”,一劑強心針。這事其實早有鋪墊。還記得4月24號,DeepSeek剛發佈V4預覽版,就同步開源了——不管是智能體能力、世界知識,還是推理性能,在國內和開源領域都是頂尖水平。更關鍵的是,它分了兩個版本,開發者只要改個參數,就能直接呼叫API,門檻特別低。最讓人驚喜的是,發佈當天,多家國產硬體廠商就火速跟進,搞起了“0day適配”。說白了就是當天發佈、當天適配,一點不拖沓。這可不是簡單的“能運行”,而是真正的軟硬體協同最佳化,能把國產晶片的算力潛能充分發揮出來,從根本上解決咱們以前“有晶片、無生態”的難題。咱們來看看這些廠商的動作有多快:華為計算直接宣佈,昇騰超節點全系列產品都支援。DeepSeek V4,雙方深度協同,把芯模技術做到了無縫銜接。華為雲也不甘落後,首發適配,開發者不用自己部署,一鍵就能呼叫V4的API,特別方便。不止華為,其他國產晶片廠商也沒閒著。寒武紀當天就基於vLLM推理框架,完成了V4兩個版本的適配。摩爾線程在國產全功能GPU上,率先實現了對V4最新算子庫的支援。更有份量的是,全球智能體風向標OpenClaw,也官宣全面接入,還把V4 Flash當成了默認大模型。這就相當於,咱們的國產大模型,已經得到了全球行業風向標等級的認可,不再是“閉門造車”。再說說這次信通院牽頭的適配測試,可不是走過場。測試依託專門的重點實驗室和專業的測試工具,覆蓋了晶片、伺服器、開發框架等所有AI軟硬體產品,聚焦推理、微調這些核心流程,從易用性、性能、成本等多個維度做評估,形成了一套全方位的評測體系,就是要客觀檢驗適配效果,推動模型和硬體真正做到深度協同。結合之前中美科技脫鉤、中國限制美資滲透的背景,再看這次的適配測試,其實邏輯特別清晰:美國一邊搞資本封鎖,一邊卡我們晶片脖子,就是想讓我們的AI產業斷檔。但我們沒有被動挨打,反而主動發力。我個人覺得,這才是最硬氣的破局之路。以前我們可能還會依賴國外的晶片和資本,但現在,我們有了DeepSeek V4這樣的頂尖模型,有華為、寒武紀這些國產硬體廠商的全力配合,還有信通院這樣的“國家隊”牽頭護航,相當於把AI產業的“命脈”,牢牢握在了自己手裡。以前我們可能還會有僥倖心理,現在徹底清醒了:核心技術買不來、求不來,只能靠自己。而DeepSeek V4的國產化適配,就是我們打破封鎖、實現自主可控的重要一步。 (W侃科技)
全網最強萬字解讀:DeepSeek-V4 掀翻了誰的桌子?
“370倍的鴻溝,不只是限時促銷。”GPT-5.5 “大杯版”的輸出價格是 130 美元/百萬 Token,而 DeepSeek-V4 隻要 2.5 元人民幣。在同樣的智能水位下,兩者的成本差了整整 370 倍。這絕非一場網際網路式的“補貼大戰”或限時促銷,而是一場已經持續了四年的中國特色“效率革命”。在 Agent 時代,當長程任務的一致性需求迫使 Token 消耗量呈指數級增加時,DeepSeek-V4 延續了其“用更少的資源做更多的事”的硬核傳統,再一次以極致的壓縮方案,將百萬上下文的門檻從“奢侈品”變成了“日用品”。但省錢從來不是免費的午餐。每一次效率的跨代領先,都在系統複雜度、生態鎖定和能力邊界上埋下了伏筆。為什麼 OpenAI、Anthropic 始終堅守稠密模型與原生長窗?DeepSeek 與昇騰晶片的深度軟硬繫結,究竟是國產替代的曙光,還是建構了新的技術孤島?當大模型競賽進入“系統戰爭”的深水區,誰能定義下一個十年的 AI 基礎設施?在Deepseek V4發佈當天的GAIR Live圓桌上,雷峰網聯合創始人岑峰對話三位行業專家:數勢科技創始人兼CEO黎科峰智源系統智能研究組研究員劉廣清昴智能技術負責人楊澤乾從產業競爭、系統生態和技術架構三個維度,拆解DeepSeek-V4的效率帳本。01. 四次"掀桌子",掀的是不同的桌子DeepSeek的"掀桌子"不是一生只有一次的事件,而是一場分階段、分維度的系統性進攻。黎科峰將V2到V4的四次發佈拆解為四個不同的戰場:V2掀的是"價格桌":KV Cache壓縮90%以上,API價格打到GPT-4的1%;V3掀的是"訓練桌":不到600萬美元訓練出GPT-4o級模型,證明了中國團隊可以用極低成本做出世界一流基座;R1掀的是"推理桌":30萬美元純強化學習湧現出CoT能力,讓全球看到推理模型不必依賴天價算力。而V4掀的,是"系統桌":在 GLM、Kimi、Qwen、Gemini 等強手環伺下,V4 不僅補齊了 Coding、數學與長上下文的短板,更完成了對昇騰 910B 算力的徹底適配與 FP4 量化支援。黎科峰指出,V4 的真正不同在於:它不再是“從 0 到 1”的驚喜,而是在“從 1 到 100”的正面戰場上,用工程能力和系統效率硬碰硬地贏了。這種進化軌跡如同賈伯斯提到的“連點成畫”(connecting the dots):分散的效率突破,最終拼出了一幅完整的、獨立於 CUDA 生態之外的 AI 基礎設施圖景。02. 2%的演算法暴力美學在 DeepSeek-V4 的技術報告中,最令業界震撼的數字莫過於“2%”。在 Transformer 架構統治大模型的今天,長序列處理產生的 KV Cache 始終是視訊記憶體消耗的“黑洞”。楊澤乾指出,DeepSeek 的進化本質上是一場“存量空間的戰爭”。V2 引入 MLA 壓縮了 90% 的快取空間;而 V4 進一步祭出了 CSA(壓縮稀疏注意力)與 HCA(混合注意力) 的組合拳。這不僅是數學上的奇蹟,更是工程上的大膽取捨。楊澤乾認為,DeepSeek 將計算複雜度從傳統的 O(n2) 壓向了接近線性。這意味著,百萬級長文字從此前的“奢侈品”變成了“日用品”。這種“極致壓縮”路徑,雖然在極端長度下可能存在檢索性能的衰減,但它解決了“能用”和“好用”的門檻問題。這種架構的複雜性,被嘉賓們稱為“演算法的暴力美學”。它反映了這樣一種技術之美:在算力極度稀缺的背景下,中國工程師選擇用更複雜的系統邏輯,去避險硬體資源的匱乏。當百萬級長文字不再是需要慎重使用的“昂貴資源”,Agent 的長程思考才真正具備了大規模落地的經濟性基礎。03. 效率革命的隱性代價:選擇即取捨極致的省錢往往伴隨著複雜度的代價。楊澤乾直言,DeepSeek 的每一筆效率收益,都在其他地方留下了帳單:性能的衰減: CSA 和 HCA 的極致壓縮,導致在 128K 之後的長序列檢索性能出現不可避免的衰減。這種“遺忘的藝術”意味著在處理極端長度的邏輯推理時,模型可能出現邏輯斷層,這與 Claude 追求的“完美檢索”是截然不同的路線。架構的債: 為了省錢,整體架構變得極其精巧且複雜。這雖然在訓練側省下了真金白銀,但在後續的跨平台遷移、不同晶片的算子適配上,會帶來極高的工程難度。MoE 的連貫性瓶頸: 作為 MoE(混合專家模型)的極致信徒,DeepSeek V4 總參數 1.6T 卻只啟動 49B,這種“細粒度路由”雖然效率驚人,但在需要高度全域一致性的長程 Agent 任務中,表現仍遜於昂貴的稠密模型。這些帳單不是缺陷,而是深思熟慮後的選擇。DeepSeek 這種聰明之處在於:它清楚地知道自己在放棄什麼,並且成功地將這些“放棄”轉化為了極具殺傷力的商業優勢。04. 長上下文的真相:我們只走了一半的路雖然百萬上下文已成標配,但劉廣拋出了一個更尖銳的判斷:“現在的技術只解決了一半問題——能記住,但學不會。”目前大廠的長文字策略各具特色:DeepSeek 走實用主義壓縮路線,成本極低;Gemini 走原生架構路線,全域一致性好但擴展性受限;Claude 追求高精度檢索,是法務和醫療場景的首選;OpenAI 則利用推理模型最佳化邏輯深度。但這些策略本質上都是“記憶”而非“學習”。模型可以一次性吞下整本《三體》做總結,但無法在與使用者的長期互動中持續更新權重、沉澱個性化的知識。人一輩子讀的書可能遠超百萬 Token,卻能將其內化為智慧。大模型的長文字技術如果不能跨越從“臨時快取”到“權重更新”的鴻溝,長上下文就依然只是一個更寬的、容易被溢出的漏斗。這意味著,我們還在長上下文這條路上走了一半,剩下的那一半,是如何讓模型在互動中真正"成長"。05. MoE vs 稠密,不是技術優劣,是生存策略一個有趣的地理髮現是:國內“開源御三家”(DeepSeek、千問、Kimi)不約而同選擇了 MoE 路徑,而 OpenAI、Anthropic 等美國巨頭仍傾向於稠密模型。黎科峰認為,這折射出的是中美兩國在資源約束下的必然選擇:美國路線:核心邏輯是資本驅動的“大力出奇蹟”,通過堆疊晶片和電力維持絕對領先。中國路線:核心邏輯是約束驅動的“極致性價比”,在算力封鎖和預算受限的環境下,通過 MoE 實現“降維打擊”。他用一個比喻道出了本質:"家裡有肉吃,為什麼要去吃粗糧?"DeepSeek的MoE+FP4+昇騰繫結,不是"最優技術路線",而是"受限環境下的最優解"。但正是這條"粗糧路線"正在展現出驚人的競爭力。DeepSeek的API定價僅為海外大廠的1/10,讓中國模型在 API 定價上展現出了顛覆性的優勢。當性能接近、成本差一個量級時,商業化天平就會發生傾斜,迫使全球大模型產業重新思考成本紅線。06. 從模型競賽到系統戰爭在圓桌的尾聲,三位專家達成了共識:大模型產業正從單純的“算力競賽”轉向全端的“系統戰爭”。黎科峰指出,對於擁有數萬名員工的科技巨頭,如果全員使用 AI 輔助程式設計或辦公,Token 成本將是天文數字。“用得起”本身就是最大的競爭壁壘。DeepSeek 的護城河,並不在於它比對手聰明多少,而是在於它成功地將 AI 從“少數人玩得起的奢侈品”,變成了“成千上萬家企業工具箱裡的日用品”。劉廣分享的案例更令人震撼:在國產算力生態中,以前編寫一個底層算子需要專家手寫一兩周,現在利用 Agent 輔助只需 10 分鐘。這種效能提升帶來的價值,正反向驅動著整個國產系統生態的進化。DeepSeek-V4 的意義在於,它打破了 Scaling Law 只能靠“堆算力、堆參數”的增長慣性。它證明了:智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。 桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建一個更便宜、更可控、更具生命力的 AI 秩序。以下是此次圓桌討論的精彩分享,雷峰網進行了不改原意的編輯整理:1. 從“打榜”到“落地”,DeepSeek V4技術報告解讀岑峰:各位嘉賓、朋友,大家晚上好。昨天這個時候,我主持了一場關於Claw類產品Token焦慮的圓桌。當時我們討論了“記憶是資產還是負債”的命題。緊接著 DeepSeek V4 便震撼發佈,它通過 CSA(壓縮稀疏注意力)與HCA(混合注意力)的混合架構,將 1M 上下文的 KV Cache 壓低至傳統方案的 2%。換言之,當記憶規模爆炸,DeepSeek 選擇了“遺忘的藝術”,並以極高的架構複雜度作為支撐。回顧其路徑,V2 將 KV Cache 壓縮 90% 以上;V3 以不到 600萬美元訓練出 GPT-4o 等級的模型;如今 V4 更是將上下文推理成本、1M 上下文的 KV Cache大幅降低。這種極致效率的領先,正在系統複雜度、生態鎖定和能力邊界上埋下深遠伏筆。今天我們邀請到三位嘉賓,從效率與代價的角度進行拆解並分析:DeepSeek的極致效率意味著什麼?中國開源御三家的開源 MoE 路線與西方的稠密模型路線將如何分化?下一個十年的AI基礎設施如何演變?按照慣例,我們先請三位嘉賓分享各自視角下對Deepseek技術報告的深度解讀。黎科峰:最近很熱鬧,GLM、Kimi、Qwen都發佈了最先進的模型,在OpenSource榜單上面輪流坐莊。大家都在等 DeepSeek V4,今天它終於發佈,從 Benchmark表現來看,其綜合感知明顯優於此前的開源模型,從股市上來看,DeepSeek概念股今天漲得非常瘋。這次發佈具有“掀桌子”的意義,核心體現在四點:第一,真開源。DeepSeek 依然堅持最開放的 MIT 協議,不設商業化限制。在其他幾家大模型紛紛加碼開源“枷鎖”的背景下,這種堅持極為不易。第二,V4 徹底適配了華為昇騰晶片並支援 FP4 精度。這標誌著大模型從訓練到推理真正實現了中國自主安全可控的閉環。第三,價格。隨著 OpenClaw 等 Agent 產品的火爆,Token 消耗量呈十倍級增長。海外閉源模型的高昂價格讓開發者難以承受,而DeepSeek 將價格壓到了 25 元人民幣/百萬 Token, Flash 版本更便宜,十倍量級。這極大促進了多 Agent 生態的落地。最後,在關鍵能力上也有不俗表現, V4的亮點不僅在於降本,更在長上下文、數學及程式碼能力上部分反超了海外領先的閉源模型。尤其是程式設計能力的提升,為大模型的應用生態拓展了巨大的空間。完全開源、低成本、接近世界領先、完整國產化軟硬體生態,這四個核心點放在一起,既好又有用,而且還便宜。劉廣:DeepSeek V4 的發佈正值大模型從“打榜”轉向“落地”的範式拐點。當前 Agent 架構盛行,產業界最核心的關切已聚焦於長上下文的處理能力與綜合推理成本。在技術架構上,V4 展現了極致的效率最佳化。其最顯著的突破在於實現了混合精度訓練:在專家層(Expert)使用 FP4 精度,其餘部分採用 FP8。這種精度的跨越不僅大幅提升了訓練效能,在推理側也通過顯著壓縮 KV Cache 開銷,極大地降低了計算量與延遲。以往這類低精度支援高度依賴輝達生態,但 V4 證明了國產晶片已能逐步適配混合精度量化的訓練與推理。這預示著國產算力將真正具備支撐超低成本推理場景的能力。當然,國產生態在先進演算法適配上仍存挑戰。DeepSeek 同步發佈的 Tylan 庫,以及智源支援 8 款國產晶片的 FlagOpen 平台,都在致力於打破這一瓶頸。我們關注的重點是“系統智能”——即利用 AI 能力反哺底層基礎設施。在國產晶片的算子適配中,我們已開始利用 Agent 自動化工具完成複雜算子的精度對齊與調優。這種“模型能力提升帶動底層系統最佳化”的加速循環,將是未來的主流方向。DeepSeek V4 通過開源方案大幅壓低 Token 成本,為整個國產算力生態向極致效能演進提供了關鍵牽引。楊澤乾:DeepSeek V4 技術報告中最令人震撼的突破,首先在於其對注意力機制的革命性最佳化。長期以來,Transformer 架構 O(n^2)的計算複雜度始終是長序列處理的瓶頸。雖然業內在探索 Mamba 等新架構,但其成熟度尚不及“MoE + Transformer”組合。此次V4 通過 CSA(壓縮稀疏注意力)與 HCA(重度壓縮注意力)的交替式設計,將 KV Cache 極致壓縮至傳統方案的 2%,使計算複雜度從O(n^2) 降至接近線性。這標誌著百萬級長文字從此前的“高門檻消耗”轉變為低成本的“日用品”。其次是異構算力環境下的訓練穩定性。針對在華為昇騰、華虹等國產算力底座上進行大規模預訓練的挑戰,V4 引入了 Break-off 投影與 ThinkingHorn迭代方案,實現了國產算力底座上的不停機穩定預訓練。同時,針對 MoE 架構,V4 利用 Ingram 機制有效解決了“模型越大、推理越慢”的行業悖論。當然,追求極致效率必然帶來技術取捨。報告中提到了長文字的遺忘性,不會像Claude或Gemini的超長文字精準性那麼強,一定長度之後存在邏輯斷層和精度損失,這是對極致效率追求的取捨。此外,為了壓低成本,V4的架構變得極其複雜,這在後續的推理極致最佳化以及跨平台遷移上,增加了額外的工程成本。但總體而言,這些取捨並未掩蓋DeepSeek V4 在國產算力約束下所展現出的卓越技術含金量。2. 掀桌子、RL 暴力湧現、OPD 工程權衡,Deepseek技術哲學的進化岑峰:剛才三位老師從不同視角分享了 DeepSeek V4 的架構演進。楊老師最後提到的“取捨”非常關鍵。從 V2 到 V4,DeepSeek不斷證明用更少的資源可以實現更強的性能。但正如業界所言,極致的省錢往往伴隨著系統複雜度的代價。接下來的核心討論,我們將聚焦 DeepSeek 這種效率優先的技術路線。請教黎科峰老師:DeepSeek 的歷次發佈常被評價為“掀桌子”。從V2、V3、R1 到現在的 V4,您認為每一次“掀桌子”有什麼不同?它們掀翻的是同一張桌子,還是開啟了不同的秩序?黎科峰: “掀桌子”這個詞雖然被多次使用,但 V4 與往屆確實有顯著區別:去年的 DeepSeek R1 解決的是“從 0到 1”的問題,它首次在開源界大規模實現了思維鏈(CoT)推理,讓全球看到中國團隊能以極低成本做出媲美閉源模型的效果。那是從無到有的驚喜。而此刻的 V4 面臨的競爭格局截然不同。在 V4 發佈前,GPT-5.5、Gemini 1.2 Pro 及國產的 GLM、Kimi、千問等已經輪番“坐莊”,已經有四波了。V4的壓力在於:如果你發佈後的表現不如對手,那麼“掀桌子”就無從談起。經過初步測試,我們發現 V4 的表現非常堅挺,尤其在程式設計能力上, DeepSeek 早期就主打 Coding,但在此之前,大家在嚴肅的工業級場景中仍傾向於使用海外閉源模型。現在V4 的 Coding能力已經達到了可以作為生產力工具直接創造 AI 產品的水平,這是其能力的重大補齊。另一個重要意義是擺脫 CUDA 生態的限制,智源等機構一直在推動國產算力生態(如 FlagOS 聯盟),但由於模型廠商對 NVIDIA生態的路徑依賴,推進難度極大。DeepSeek 此次通過深度適配昇騰晶片豎起了一面旗幟,在技術框架層面開闢非 CUDA 路徑,這種“掀桌子”是對算力底層壁壘的直接挑戰,也是我最為看重的。另一個加分項,Deepseek始終堅持開源初心,在友商紛紛收緊開源協議,如將 MIT 改為受限協議時,DeepSeek依然保持全值開放、無商業限制。這種價值觀的穩定性在當前的產業環境下極具殺傷力。岑峰:桌子掀翻之後重要的不是誰掀的,而是誰能夠在廢墟上面重新建立新的秩序。接下來想請教劉廣老師一個技術問題:R1 曾憑藉 30 萬美元的純強化學習(RL)湧現推理能力,震驚全球並登上《Nature》封面。但最新的 V4 技術報告顯示,其後訓練階段已放棄純RL 路徑,轉而採用 OPD(線上策略蒸餾)。這種路線轉變是否意味著純 RL 的泛化邊界已經顯現?劉廣:您這個問題問得非常好。最近強化學習的路線一直在討論非常多,agent RL建構新的環境腳手架,基於環境結合去做強化學習訓練,認為可以做真實生產環境的問題解決。DeepSeek又走了另外一條路徑。大模型是由資料、演算法、算力這“三駕馬車”驅動的。您剛才問的就是演算法改進,但我看到它在資料上也做了很多突破,在硬體上也做了很多突破,主要突破點其實就是效率。DeepSeek一貫的風格就是把整個訓練的效率達到一個非常極致的狀態。從 Scaling Law來看,DeepSeek 早在早期模型中就通過精確擬合找到了高資料效率的平衡點,從而將更多算力投入到參數規模的擴展上。此次V4 將資料規模從 14.8T 擴展到 30+T,參數規模也從 600B 增加到 1.6T。放棄純 RL 轉向 OPD,實際上是 DeepSeek 在追求極致訓練效率下的必然選擇。這種路徑為國產生態提供了巨大的信心。智源推出的 FlagOS也是希望通過軟體層面的適配支援多元國產晶片。DeepSeek 的示範作用,能牽引更多人關注國產算力的極致效能最佳化。在實操中我們發現,這種FP4+FP8 的混合精度訓練對轉換精度非常敏感。如果要在國產算力上用 INT8 或 BF16跑這些權重,轉換過程中的精度損失是當前生態面臨的重要挑戰。我們將開放這些經驗,助力全行業解決國產晶片的適配難題。岑峰:順著劉老師的回答,我想進一步請教楊澤乾老師:DeepSeek 後訓練哲學的轉變,是否在為早期追求極致效率而產生的架構債“還債”?楊澤乾:您這個問題問得非常專業且技術。我認為 V4 採用 OPD 並非放棄強化學習,而是一種更務實的工程權衡。R1當時出來證明的是純強化學習方式能夠湧現模型能力的上限,但中間是不可控的,CoT思維鏈以及算力消耗都不可控。V4的OPD方式,也就是線上策略蒸餾,採用的是分佈式專家的培養模式:先針對數學、程式碼、agent執行這些領域去獨立訓練專家,用SFT和RL的方式訓練,然後再將這些領域的知識蒸餾到統一的學生模型中。這個方式並不是放棄了RL技術路線,而是把強化學習放到了專家培養的階段,而在整體專家模型的整合階段,選擇了一種更高效、更穩定的蒸餾方式。這樣比較好地解決了DeepSeek V4這種兆級模型在多工場景下的性能退化問題。3. 長上下文與檢索,實用主義 vs. 完美主義岑峰:謝謝楊老師。第一輪討論勾勒出一個清晰的脈絡:DeepSeek的效率至上既是工程能力的勝利,也是特定約束下的生存策略。每一次領先確實都有代價,但每一次里程碑都看到了DeepSeek在不同層面上的嘗試。這有點像賈伯斯說的連點成畫,從不同的點進行嘗試,最後形成一幅完整的畫面。接下來我們將進入第二輪:百萬上下文時代的技術路線之爭。長上下文已從“炫技參數”轉變為“基礎設施”,DeepSeek V4等主流大模型紛紛升級至百萬級(1M)上下文。請教黎科峰老師,為何長上下文會成為當前大模型競爭的焦點?黎科峰:競爭的核心動力在於應用驅動。過去 DeepSeek 在應用層相對後覺,更關注 AGI 理想,而千問、字節、GLM 及 Minimax 等廠商早已通過APP 和開發者生態搶佔灘頭。這一年的變革極快。Manus 定義了 Agent 的自主規劃與工具呼叫模式,而 OpenClaw 則像是一個智能體版的 APP Store。這些複雜任務的處理需要長時記憶支撐。當 Agent組合多種能力處理長程任務時,拼出的 Prompt極其複雜,這對長上下文的連接能力提出了硬性要求。DeepSeek V4的升級是補齊短板的重要一步。雖然它在應用層起步較晚,但這次發佈顯示其正反向通過應用需求推動模型演進。大模型不再是舞台中央的唯一主角,而是“搭檯子”的基礎設施,唱戲的是百花齊放的專家Agent。百萬級上下文是這個“檯子”最關鍵的基石。岑峰:報告顯示 DeepSeek 在 128K 後的檢索性能有所衰減。請教楊老師,對比 Google Gemini 的原生長窗、OpenAI的o 系列推理加速及 Claude 的可控長文字,DeepSeek 這種極致壓縮路徑的優劣勢是什麼?楊澤乾:這四家目前全球 Token 呼叫量前四的廠商,在長文字策略上各具特色:DeepSeek V4是實用主義,通過 CSA+HCA 極致壓縮 KVCache,大幅降低視訊記憶體壓力。其優勢是極低成本與百萬級長度,適用於大規模程式碼重構、架構分析及超長文件總結。代價是全域高密度檢索性能會有所下降,且MoE 架構在處理跨領域知識融合時,穩定性稍遜於稠密模型。Claude的路線屬於完美主義,追求最小化壓縮以保持資訊完整。優勢是檢索精度和可控性行業頂尖,處理多工呼叫能力極強。代價是成本最高,且在需要全域注意力時,速度必然受限。它更適合法律、醫療等高資訊密度、對嚴謹性要求極高的場景。OpenAI則是全面主義, 走漸進擴展+推理模型最佳化路線。優勢在於跨模態能力強(如 GPT-4.6/5.4),通過 o系列模型專門最佳化複雜邏輯推理。然而,其成本極其昂貴,如剛發佈的 GPT-5.5輸出價格高達 130 美元/百萬 Token,與 DeepSeek 形成鮮明對比。Google Gemini屬於二者的均衡折中,堅持原生架構支援長上下文,不依賴演算法壓縮。優勢在於高密度知識檢索能力強,工程結構簡單,全域一致性好。缺點是硬體成本極高,架構靈活性有限,主要適應通用問答場景。總結來說,DeepSeek 是以效率優先解決“能用、好用”的問題;Claude 追求極致精度;OpenAI 覆蓋全高端場景;Gemini則在精度與成本間尋找平衡點。岑峰:DeepSeek V4 與硬體深度繫結,請教劉廣老師,這種“極致壓縮+低位元量化”是否會形成硬體的技術壁壘?跨平台遷移是否會面臨性能損失?劉廣:DeepSeek 的量化策略確實與硬體存在較強的協同關係,但這並非不可踰越的屏障。智源 FlagOS 團隊曾嘗試進行“反量化”,將低位元權重升維至 FP16 或BF16。技術上是可行的,但坑在於量化精度對操作順序極敏感,反量化過程中可能出現精度誤差。目前的長上下文技術其實才走了一半。雖然我們能讓模型“記住”1M 甚至更長的資訊,但這只是暫時的記憶。AGI 的核心能力是持續學習,即模型應隨環境互動改變其權重,而不僅僅是堆砌上下文。在生態側,長上下文為國產晶片帶來了差異化機會。例如當前流行的 PD 分離(Prefilling 與 Decoding分離)技術,有些國產晶片適合做預填充,有些適合做推理。智源也在佈局異構通訊等底層技術,支援在國產算力上實現長文字推理。總體來看,這種技術路線的演進正在衍生出大量新的機會。4. MoE 的精打細算 vs. 稠密模型的擴張岑峰:除了長上下文,大模型領域另一個顯著的路線分歧在於MoE(混合專家模型)與稠密模型。目前,國內“開源御三家”(DeepSeek、千問、Kimi)均選擇了MoE 路線,而西方巨頭(OpenAI、Anthropic、Google)則在主力模型上依然傾向於稠密模型。黎老師,在 Agent 時代,這兩條路線將如何演化?MoE與稠密模型之間是否存在相互學習的空間?黎科峰:中美技術選型的差異,本質上是不同資源約束下的必然結果。對於國內團隊而言,技術選型面臨著“晶片封鎖”與“預算受限”的雙重壓力。我們必須在算力供給並不充裕、硬體性能稍遜於 NVIDIA頂尖產品的環境下,通過軟硬一體化最佳化出極致性能。這就迫使我們走向 MoE這種“精打細算”的路線。反觀美國,雖然現在也面臨電力和基建的瓶頸,但其核心邏輯依然是資本驅動的大手大腳:通過堆疊更多的參數、購買更多的晶片來維持領先,形成了一套資本與算力繫結的遊戲。我認為中美的這種分化將長期存在,且各有勝場。中國大模型會在成本維度形成“降維打擊”: 當國產模型的成本只有美國的 1/10,且性能差距縮減到毫釐之間時,這種成本優勢是極其恐怖的。不過,二者目標設定也有差異:中國團隊的目標非常清晰——通過開源和極致性價比實現“彎道超車”。這並不是說美國企業不懂低精度訓練或極致壓縮,而是他們的戰略目標不在於此。最終,這兩條路徑會根據使用場景進行市場細分:追求極致精度、不計成本的場景屬於一類;而追求高性價比、大規模普及的場景則屬於另一類。DeepSeek在極度受限的條件下最佳化出的非 CUDA 生態路徑,讓我們看到了打破壟斷的希望。岑峰:我們注意到,在針對複雜程式設計任務的評測(如 SWE Pro)中,DeepSeek V4(55.4%)略遜於稠密模型Claude 4.5(57.3%)。這是否說明 MoE 的專家分工模式,在需要長程規劃和高度統一表徵的 Agent 任務中,不如稠密模型穩健?楊澤乾:MoE 架構在處理複雜 Agent 任務時,確實面臨“連貫性”的天然挑戰。以 DeepSeek V4 為例,其總參數量高達 1.6T,但單個 Token僅啟動其中的 49B(約 3%)。這種動態路由機制雖然能以更小的計算量處理海量參數,但無法像稠密模型那樣讓每一個Token 都經過全部參數的統一處理,容易導致在長程任務中出現邏輯斷層。但 MoE 並非決定性因素。例如 Kimi K2.6 同樣採用 MoE 架構,但在部分測試中卻優於某些稠密模型。DeepSeek V4在特定資料集上的劣勢,更多是其在效率與成本間進行極致取捨的結果。目前,行業最佳化 MoE 應對長程任務的思路主要有三條:改進路由機制: 採用更智能的專家選擇策略,減少路由切換頻率,維持任務狀態。強化專家間資訊共享: 提升專家網路對全域任務目標的共識。針對性強化學習: 在訓練階段專門對長程任務進行 RL 最佳化,彌補架構帶來的連貫性損失。岑峰:劉老師,如楊老師所言,MoE在Agent任務上存在"連貫性瓶頸",而Agent正是2026年大模型最重要的落地場景,MoE路徑未來還有那些可能的演進來解決這個問題?劉廣: 針對 MoE 路線的演進,我認為未來有兩個極具價值的研究方向。首先是極致的稀疏化。DeepSeek 成功的關鍵在於將 MoE的粒度做得極細。細粒度專家雖然帶來了系統通訊的挑戰,但也極大提升了模型表徵的靈活性。DeepSeek幾乎把所有的稀疏化技術都用上了:稀疏注意力、稀疏 MoE,甚至是基於分佈式表示的 N-gram。這種稀疏化不僅能提升效率,還能幫助模型進行“感知量化訓練”。如果模型足夠稀疏,我們就可以通過剪枝去掉大量權重而幾乎不影響性能,甚至可以實現將多個不同領域的專家蒸餾到一個統一模型中的“後訓練範式”。其次是打開 Transformer 的“黑盒”。過去我們將 Transformer視為不可拆解的整體,但現在的趨勢是將其細分、拆碎。通過觀測訓練過程中那些環節的值不穩定,進行針對性的架構改進(如MHC 最佳化),讓訓練變得更穩健、更高效。這種從理論機理出發,結合極致工程實踐的路徑,不僅能提升訓練效率,更能讓我們深入理解大模型的運行機制。5. 從省錢到賺錢的未來思考岑峰: 剛才三位老師深入探討了長上下文、MoE 與稠密模型的優劣。我們達成了一個共識:在百萬上下文和 Agent時代,並沒有唯一的“正確答案”。DeepSeek走的是極致性價比的壓縮路線,但在記憶完整性和連貫性上仍有挑戰;而海外巨頭如Anthropic 走完美主義路線,OpenAI 走全面路線,Google 走原生平衡路線。最終,技術路線的差異要回歸商業本質:DeepSeek 這種“省錢”的能力,能否轉化成“賺錢”的能力?大模型產業是否正從“模型競賽”轉向“系統戰爭”?請教黎老師,您如何看待這幾種路線在商業化能力上的潛力?黎科峰: 技術領域從未有“一招鮮吃遍天”的方案,大模型最終會進入細分領域的深度競爭。例如,Claude 強在 Coding,GPT強在圖像與綜合推理,豆包強在多模態。DeepSeek 則聚焦文字處理,這是一種戰略上的克制。關於商業化,我認為可以從兩個維度看:首先,成本是商業化的生命線。就像汽車行業,豪華品牌固然存在,但真正統治市場的是豐田、大眾這類大眾化品牌。性價比永遠是大規模商業化中最重要的環節。目前Claude Opus 等高端模型的開銷,即使是對擁抱 AI 的企業來說也感到沉重的壓力,更遑論未來數萬名員工全員 AI 化後的開銷。因此,Token成本持續下探是行業必然。從技術理想主義與長期主義的維度,DeepSeek比較特殊,其創始人梁文鋒現階段表現出了極強的技術理想主義,更關注如何把東西做成世界最好,而非過早商業化。這種“厚積薄發”的策略,在國產軟硬一體化最佳化的背景下,可能對閉源大廠產生巨大的衝擊。當性能接近、成本僅為對方 1/10時,這種優勢是顛覆性的。岑峰:極致效率、通用能力與落地穩定性,往往難以兼得。對於企業客戶和開發者,未來的模型選型標準會發生什麼變化?那種路線具備更長期的生命力?楊澤乾: 我認為大模型選型的判斷標準,正從單一的“模型有多聰明”轉向“系統效能的綜合評估”。主要看三個核心指標:成本可控性: 企業關注的不只是單次推理費用,而是當業務規模擴大 100 倍、完全 Agentic化之後,成本曲線是否能維持線性。在這一維度,極致效率路線具有壓倒性優勢。能力的確定性:開發者在核心場景中更看重模型的穩定性、可預測性和可解釋性。一個全能但“黑盒”且不可控的模型,其價值往往不如一個在垂直任務中表現穩健的專用模型。生態與部署的敏捷性: 能否快速整合到現有業務、能否在自有硬體上運行、出故障後是否有成熟的社區支援,這些都決定了落地的速度。DeepSeek 走的是普適化邏輯:通過 10% 的能力差距換取 10 倍以上的成本優勢,將 AI能力變成成千上萬中小企業和開發者工具箱裡的“日用品”,從而成為像水和電的行業基礎設施。而OpenAI等大廠走的是頂尖產品邏輯,為失敗容忍度極低、對成本不敏感的高風險場景提供不可替代的、最可靠的解決方案。未來市場會明顯分層,絕大多數商業場景將流向性價比更高的實用模型。岑峰:劉老師,楊老師提到了系統生態的建設。未來 AI 廠商的核心競爭力,是否會從單純的演算法研發轉向全端的系統工程能力?劉廣:這確實是大勢所趨。單一模型的能力存在侷限,必須通過系統化(Agentic 系統)來擴展其邊界。目前許多大廠已將原有的中台能力轉化為工具或 MCP(模型上下文協議)介面。此次 DeepSeek V4 的發佈,結合 Claude Code等開源/閉源腳手架,將極大加速這一過程。企業只需對模型權重進行微調,即可將其接入真實業務流程,產生實際產出。分享一個我們的實踐:在國產算力生態中編寫算子。以前依賴專家手工編寫,周期長達一至兩周。現在利用 Agent 輔助,只需 10 到 20分鐘即可生成高品質算子,並在國產晶片上順暢運行。這種方式將人力成本從數千元降低到幾十元的 Token費用,這種價值的體現會反向驅動整個系統層面的進化。DeepSeek V4 第二次加速了 AI 輔助產業重塑的處理程序。岑峰:今天的討論從 V2 談到 V4,從 MLA 架構談到 CSA+HCA 注意力機制,從“掀翻價格桌子”談到“重構基礎設施”。DeepSeek用四年時間證明:效率本身就是核心競爭力。正如三位老師所言,在 Agent 時代,大模型面臨著對連貫性、可控性和商業可持續性的新考量。每一筆“省下的錢”背後都有複雜度的代價,但 DeepSeek最大的價值在於,它打破了 Scaling Law 只能靠堆算力和堆參數的慣性。智能的邊界不僅由晶片定義,更由工程師的想像力和工程能力定義。桌子掀翻之後,最重要的不是誰掀的,而是誰能在廢墟上重建更便宜、更可控、更具生態生命力的秩序。至於未來格局如何,我們 2027年再見分曉。 (雷峰網)
“下載量破100億次”!又一個全球第一!
近日,中國國產自主研發的人工智慧大模型DeepSeek正式發佈全新V4系列版本,在百萬級超長上下文處理、全球即時知識儲備、複雜邏輯推理等核心技術維度實現跨越式升級。資料顯示,中國國產開源大模型全球累計下載量突破100億次,中國已成為全球人工智慧專利最大擁有國。DeepSeek-V4系列大模型發佈 記者實測其性能表現超長上下文處理能力,是衡量大模型工業級應用價值的核心指標。針對這款模型百萬級超長內容處理能力,記者提前準備了總量達97萬字的多類型素材包,其中涵蓋長篇文學作品、多領域新聞稿件等多元文字內容,一次性匯入模型。在首輪測試中,記者要求模型精準提煉指定新聞稿件第四部分的核心內容。用約7秒鐘時間,大模型就輸出了五個核心要點的結構化精準總結。隨後,記者提出了需要橫跨全部近百萬字內容才能回答的問題:“在這套素材裡,一共涉及多少行業?”大模型給出了共涉及約45個細分行業的答覆。記者聚焦全球基建與民生實事提問:“2025年下半年,全球有那些國家開通了中國援建的新鐵路線路?這些線路給當地老百姓帶來最直觀的變化是什麼?”面對這一兼具時間限定、地域跨度、事實核查與深度解讀的複合型問題,模型不僅精準說出了多個國家的鐵路項目,還詳細講述了每條線路帶來的改變——比如坦贊鐵路啟動項目完工後,貨物運輸時間預計縮短近三分之二,運力將提升至每年240萬噸。從能記住百萬字內容的“超級記憶力”,到涵蓋全球的“海量知識庫”,再到複雜場景的深度邏輯推理,記者通過實測,直觀感受到了中國國產大模型技術的快速迭代。多款中國國產開源大模型近期完成迭代升級DeepSeek-V4一個重要的標誌,是“開源”模型。其實近期,中國多家科技企業都密集完成開源大模型的迭代升級。記者梳理髮現,本輪中國國產開源大模型迭代,覆蓋了技術降本、工業級應用、專項能力突破、端側適配等多個核心方向,實現了多維度的技術升級。騰訊開放原始碼的混元模型,大幅降低AI推理部署成本,讓中小企業無需高額投入即可快速搭建專屬AI應用;月之暗面發佈的Kimi模型,能把複雜任務拆解開,讓多個AI小助手協同幹活,能應對更複雜的工業場景;稀宇科技的Minimax在程式碼生成與程序理解領域實現顯著躍升。全球最大的AI開源社區Hugging Face發佈的2026年春季全球開源AI生態報告顯示,過去一年,該平台上41%的大模型下載量來自中國研發的模型,中國已成為全球開源大模型供給最活躍、增長最快的地區之一。開源開放的發展模式,打破了AI技術的行業應用壁壘,推動中國國產大模型從“能聊天、會問答”的通用互動能力,向“能執行、可落地、提效率”的生產力工具全面轉型,深度融入製造、能源、交通、金融等實體經濟重點領域。資料顯示,中國國產開源大模型全球累計下載量突破100億次,中國已成為全球人工智慧專利最大擁有國,專利申請量全球佔比達60%。目前,中國AI企業數量已超過6200家,2025年人工智慧核心產業規模超過1.2兆元。 (深科技)
DeepSeek V4 之後,大模型進入“新戰國”:諸侯並起,三強成勢,誰能最後一統天下?
DeepSeek V4 發佈以後,大模型江湖已經不能再用“誰是第一”來解釋了。如果說 ChatGPT 橫空出世時,OpenAI 像周天子,手握大模型世界的名分、禮器和秩序;那麼今天,天下已經不再是周天子說了算。Anthropic 在 Coding、Agent、企業可信上攻城略地;DeepSeek 用 V4 繼續改寫全球大模型的成本曲線;Google Gemini 背靠搜尋、Android、Chrome、Workspace、YouTube、Cloud、TPU 和 DeepMind,像一個資源深不可測的全端大國;xAI 憑藉 X、即時搜尋和馬斯克產業宇宙,像一支掌握天下風向的情報軍團;字節的大語言模型沒有立住,但 Seedance 2.0 在多模態內容生產上驚豔出擊;騰訊此刻不在通用大模型榜單中央,卻可能在虛擬世界模型上突然亮劍;千問用全尺寸模型矩陣和開源工具鏈鋪後勤;Kimi 從長文字心智轉向 Agent Swarm;智譜攻 Coding 與長程 Agent;MiniMax 在視訊、語音、陪伴和娛樂產品化上另起水軍;小米、百度也並沒有退出,只是在等待自己最適合的戰場。這不是三國,也不是十王爭霸。這更像一個新的戰國。春秋看名分,戰國看國力。大模型行業,已經從“OpenAI 定義天下”的春秋時代,進入了“諸侯自鑄兵器、自修城池、自建糧倉”的新戰國。大模型的周天子時代結束了,OpenAI 仍有名分,但諸侯已經真正起來了。DeepSeek V4 的意義,不是又多了一個強模型,而是讓全世界重新計算“智能的軍費”。Anthropic 不靠多模態稱王,它搶的是最值錢的任務執行權:程式碼、工具、電腦、長程任務和企業生產系統。OpenAI 的危險,不是失去使用者,而是只剩入口;它必須把 ChatGPT 從流量入口變成組織工作制度。最終大模型不會很快出現一個秦始皇;更可能是三強成勢、諸侯割據、長期混戰,直到某家公司同時掌握入口、任務、成本、生態和制度。01為什麼說這是“新戰國”而不是“三國鼎立”?現在很多人喜歡把大模型寫成三國:OpenAI、Anthropic、DeepSeek,這個說法有傳播感,但還不夠準確,如果只看最核心的三條主線,確實是三強成勢:OpenAI 守通用入口。Anthropic 爭任務執行權。DeepSeek 改寫成本曲線。但如果看完整產業圖譜,今天的大模型世界遠比三國複雜。Google、xAI、字節、騰訊、千問、Kimi、智譜、MiniMax、小米、百度,都不是可有可無的小角色。三國的特點是邊界相對穩定,戰國的特點是邊界還在重劃。今天正是戰國,因為沒有一家公司能完全定義所有戰場。消費者入口是一個戰場、企業 Agent 是一個戰場、Coding 是一個戰場、多模態視訊是一個戰場、虛擬世界是一個戰場、端側裝置是一個戰場、開源模型是一個戰場、雲和開發者生態是一個戰場、即時搜尋和社交資料是一個戰場、國產算力和低成本推理又是另一個戰場。所以這不是“誰贏誰輸”的單線敘事,而是一個多線國力戰。春秋時代,大家還問誰是盟主,戰國時代,大家開始問誰有糧草、鐵器、騎兵、法度、城池和變法能力。大模型也是如此。02DeepSeek V4成本變法重新計算戰爭軍費DeepSeek V4 的意義,不能只看模型榜單,它真正的意義是:把大模型戰爭重新拉回成本曲線。Reuters 報導稱,DeepSeek V4 預覽版已經適配華為 Ascend 晶片,分為 Pro 和 Flash 兩個版本;V4 Pro 面向複雜任務、Agentic Coding 和競賽程式設計,Flash 強調更快和更低成本。同時,V4 支援 100 萬 token 上下文,並通過架構設計降低計算和記憶體成本;華為也宣佈 Ascend supernode 將支援 DeepSeek V4。這件事放在“新戰國”裡看,就是一場變法。大模型戰爭的早期,大家拼的是誰更聰明;後來,大家拼的是誰產品入口更強;現在,DeepSeek 把問題拉回最原始也最殘酷的一層:誰的糧草更便宜,誰能打更持久的仗。模型能力差距縮小以後,成本就是刀。同樣能做 80 分、90 分的任務,如果一個模型便宜很多,企業就會認真考慮替代。同樣能跑 Agent,如果一個系統推理成本更低,它就能跑更長時間、更高頻率、更大規模。同樣要做私有化部署,如果一個模型更適配國產算力、更能進入本地環境,它在中國金融、政企、製造業裡就更有現實生命力。DeepSeek 最可怕的地方,不是它每一代都永遠第一,而是它讓所有人採購模型前多問一句:有沒有更便宜、夠用、可控的選擇?這句話一旦進入客戶心智,閉源大模型的高毛利敘事就會被重新定價。所以 DeepSeek 在新戰國裡,最像一個完成“成本變法”的強國,它不一定疆域最大,也不一定入口最多,但它改變了戰爭的費用結構。03Anthropic不是多模態王而是任務執行權的法家強國Anthropic 為什麼讓人覺得像王者?不是因為它多模態最強、不是因為它 C 端入口最大、也不是因為它開源生態最廣。它真正的強,在於它搶的是最值錢的那塊地:任務執行權。Anthropic 發佈 Claude Opus 4.7 時,強調它在 Coding、Agentic Search、Creative Writing 上繼續推進;Claude Code 也被它放在長程 Coding 任務和背景執行能力的核心位置。這說明 Anthropic 爭的不是聊天窗口,它爭的是未來企業中最重要的問題:誰來改程式碼?誰來跑測試?誰來執行命令?誰來讀程式碼庫?誰來接工具鏈?誰來處理長程任務?誰能進入企業生產系統?這就是任務執行權。如果用歷史隱喻,Anthropic 最像法家強國,它沒有最大版圖,但法度清晰;它不靠禮樂名分,而靠軍功執行;它不一定四處開花,但在最硬的戰場上建立紀律、邊界、工具和流程。Anthropic 的“安全”“可信”“可控”,也不能只理解成道德高地。它真正厲害的地方,是把這些詞翻譯成了企業採購語言。企業不是因為 AI 更善良才買單,企業是因為權限可控、行為可審計、工具可隔離、憑證可管理、錯誤可追溯、流程可回滾,才敢把更深的任務交給 AI。這也是為什麼 Claude Code 即使曾出現產品層面的質量爭議,仍然能引發開發者圈高度關注:它已經不是一個普通功能,而是 Anthropic 任務執行權的前線陣地。Anthropic 後續解釋稱,相關問題來自默認推理等級、快取最佳化 bug、系統提示詞調整等產品層原因,並非核心模型被故意削弱。所以 Anthropic 是今天最像“法家變法後強國”的玩家,它不一定統一天下,但它非常可能統治最值錢的任務戰場。04OpenAI舊天下共主必須完成從入口到制度的轉型OpenAI 不能被輕易看空,它仍然有全球最強的 AI 心智之一。ChatGPT 仍然是大量使用者進入 AI 的默認入口。OpenAI 也在從聊天窗口向工作系統轉型。OpenAI 最近推出 workspace agents in ChatGPT,面向 Business、Enterprise、Edu 和 Teachers 等團隊場景,讓組織建立共享 Agent,處理複雜任務和長周期工作流;這些 agents 由 Codex 驅動,可在雲端運行,並在組織權限和控制下工作。這說明 OpenAI 也看清楚了,只做聊天入口,不夠;只做模型 API,不夠;只做 C 端爆款,也不夠,它必須把 ChatGPT 變成組織工作入口,把 Codex、Agent、檔案、工具、權限、記憶、工作流和企業控制體系打通。如果說 Anthropic 搶的是任務執行權,DeepSeek 搶的是成本曲線,那麼 OpenAI 搶的是通用入口權。它像舊天下共主,手裡還有名分,有人口,有財富,有開發者,有產品線,有全球心智。但問題是,戰國時代光有名分不夠。OpenAI 的危險不是失去使用者,它的危險是:使用者還在,但最值錢的任務被 Anthropic 切走;低成本呼叫被 DeepSeek 切走;全端生態被 Google 分走;開源底座被千問、DeepSeek、智譜、Kimi 侵蝕;中國本地化場景又被本土大廠瓜分。所以 OpenAI 要完成的不是守城,而是再造。它必須從 AI 入口,升級成 AI 工作制度。如果這一步成了,它仍然可能成為大模型世界裡最像漢唐的大帝國;如果這一步不成,它可能成為全球最大聊天入口,卻不是最強生產力基礎設施。05xAI即時世界的情報軍團不是邊角諸侯xAI 不能輕寫,很多人把 xAI 當成一個“會說狠話的聊天模型”,這是低估了它,xAI 真正拿在手裡的,不是普通模型能力,而是一種非常稀缺的戰爭資源:即時世界。xAI 的 Grok 4.1 Fast 和 Agent Tools API 已經把 real-time X data、web search、remote code execution 等能力放進 Agent 工具體系;xAI 官方文件也說明 Grok 的 Web Search 工具可以即時搜尋網頁、訪問頁面並提取相關資訊。這意味著,xAI 搶的不是普通聊天機器人,而是即時輿論、即時搜尋、即時社會情緒、即時新聞、即時市場反饋;X 上的人類表達資料;馬斯克產業宇宙裡的真實世界場景。這在 AI 戰爭裡相當於什麼?不是邊角騎兵,而是情報軍團 + 快速反應部隊。戰國裡,最可怕的不只是兵多糧多,也包括誰最先知道敵軍動向、民心變化、邊境風聲、糧價波動、盟友背叛。對應到今天,就是誰能更快理解“此刻正在發生什麼”,OpenAI 更像通用入口、Anthropic 更像任務執行軍團、DeepSeek 更像成本變法強國、Google 更像全端資源帝國。而 xAI,更像即時世界的情報軍團,它的優勢不是“最穩”,而是“最快”;不是“最合規”,而是“最貼近當下”;不是“最適合銀行核心系統”,而是“最可能捕捉即時世界的情緒、訊號和變化”。在未來,很多 Agent 不只需要會推理,還需要知道此刻發生了什麼:市場在怎麼反應;使用者在怎麼抱怨;輿論在怎麼發酵;政策在怎麼變化;競爭對手剛剛發佈了什麼;開發者社區正在吐槽什麼;金融資產背後的情緒正在如何變化。這類能力,在金融、媒體、品牌、公關、投研、銷售、客服、交易、輿情、安全和國際政治分析裡,都可能變得非常重要。所以 xAI 不是邊角料,它是戰國中的偵騎、斥候、情報網、快馬驛站,一句話:如果 Anthropic 爭的是任務執行權,OpenAI 爭的是通用入口權,DeepSeek 爭的是成本曲線權,那麼 xAI 爭的是即時世界解釋權。06Google Gemini最像資源型大一統候選者如果問誰最像真正具備“大一統資源”的玩家,我不會只看 OpenAI,也不會只看 Anthropic,Google Gemini 必須放在最高層,因為 Google 的優勢不是 Gemini 一個模型,而是一整套全端資源:搜尋、YouTube、Android、Chrome、Gmail、Docs、Workspace、Cloud、TPU、DeepMind、開發者工具。Gemini 3 官方介紹強調其能力覆蓋文字、圖像、視訊、音訊和程式碼;Google 還推出了面向 agent-first 時代的 Antigravity 開發工具。這像什麼?像一個擁有完整郡縣、糧倉、水利、驛道、工匠、兵器庫和官僚系統的大國。它不需要只打一場模型榜單戰。它可以從搜尋打,從辦公打,從Android打,從瀏覽器打,從雲打,從晶片打,從開發者工具打,從內容平台打。Google 的問題也很明顯:資源太多,產品心智有時不夠集中;組織太大,反應速度有時不如新興公司銳利;開發者對 Gemini 的情緒熱度,也未必像 Claude Code 那樣集中。但不能忽略 Google。如果未來大模型真的出現“大一統資源型帝國”,Google 是最有資格的候選者之一。它不是一把刀。它是一整套國家機器。07字節通用語言模型失速但多模態內容戰場驚豔字節不能漏,但也不能神化。如果只看通用大語言模型,字節並沒有形成和 OpenAI、Anthropic、DeepSeek、Gemini、千問、Kimi 相匹配的強心智。它的大語言模型聲量並不突出,也沒有在 Coding、Agent、企業可信或低成本開源上打出一個不可替代的位置。這就是字節的短板。但如果看多模態,尤其是視訊、音訊、內容生成、剪輯、廣告、電商和全球內容分發,字節又完全是另一回事。Seedance 2.0 官方資料顯示,它採用統一的多模態音視訊聯合生成架構,支援文字、圖像、音訊、視訊輸入,並具備多模態內容參考與編輯能力;字節官方部落格也稱其是下一代視訊創作模型,面向文字、圖像、音訊、視訊四種輸入。這非常關鍵,因為大模型戰爭不只有程式碼和企業流程,還有內容世界。未來短影片、廣告、電商素材、影視預演、遊戲資產、音樂視訊、虛擬人、教育內容、社交內容,都可能被多模態模型重寫。字節的獨特之處在於:別人做完模型,還要找內容分發,字節本身就是內容分發帝國。別人做完視訊模型,還要找創作者生態。字節天然連接創作者、平台、流量、廣告、電商和全球使用者。當然,這條路也有風險。Seedance 2.0 因版權爭議受到好萊塢和行業組織批評,據 Reuters 轉引 The Information 的報導,字節曾因相關爭議暫停 Seedance 2.0 的全球發佈計畫。這恰恰說明:字節的多模態不是沒有存在感,而是已經強到進入版權、內容產業和全球化監管的正面衝突區。所以字節在新戰國裡,不像中原正面決戰的步兵,更像吳越水軍和商業強國的結合體。它可能打不贏通用語言模型的正面陣地戰,但它有機會在多模態內容戰場上打出一條完全不同的水路。字節搶的不是“文字模型總榜第一”,它搶的是:未來內容如何被生成、如何被剪輯、如何被分發、如何被消費、如何被變現。這條線一旦跑通,字節就不是大語言模型戰場裡的落後者,而是多模態內容帝國的候選者。最適合它的一句話是:字節的大語言模型沒有立住,但多模態內容戰場正在發光。08隱忍的社交大國未來可能在虛擬世界模型上大放光芒騰訊現在在大模型輿論場裡並不總是最響,但絕不能低估,騰訊的資產不是單一模型,而是微信、企業微信、騰訊會議、騰訊文件、騰訊雲、遊戲、內容、安全、支付和產業網際網路。如果只看通用大模型榜單,騰訊並不在最前排。但如果把未來 AI 的戰場拉長,騰訊最值得看的,可能不是一個會聊天的模型,而是一個面向遊戲、社交、虛擬人、3D 資產、數字內容和空間互動的虛擬世界模型。這條線非常重要。騰訊 Hunyuan 團隊近期的 HY-World 2.0 項目,定位為多模態世界模型,可從文字或圖像生成可導航的 3D 世界,並產生 3DGS、mesh、point cloud 等可探索、可編輯、可匯入 Unity / Unreal Engine / Isaac 的資產;騰訊 Hunyuan 3D 項目也在持續推進高解析度 3D 資產生成。這意味著騰訊的 AI 想像力,不能只放在“聊天模型”裡看,因為騰訊擁有中國最強的遊戲基因之一,也擁有微信和 QQ 這樣的社交關係網路,還擁有內容、支付、雲、會議、文件和企業服務。它天然連接人、身份、關係、內容、虛擬資產和數字場景。如果未來 AI 不只是幫人寫文件、寫程式碼,而是要生成角色、生成場景、生成劇情、生成 NPC、生成遊戲世界、生成虛擬社交空間,騰訊的想像力會被重新打開。騰訊的 AI 逆襲,未必從大語言模型榜單開始。它可能從遊戲世界、虛擬人、互動內容、社交空間和企業數字場景開始。這就像戰國裡的隱忍大國。它不一定最早出兵中原,但它有自己的山河、人口、商路和城池。等戰場從文字模型轉向虛擬世界,騰訊可能突然成為最不該被忽視的玩家。最適合騰訊的一句話是:騰訊未必會在通用大語言模型上第一個稱王,但它可能在虛擬世界模型上大放光芒。09開源已經諸侯化中國不是 Meta 的影子曾經剎那,全球 AI 開源敘事很容易寫成:Meta 代表開源,OpenAI / Anthropic 代表閉源。但今天已經不是這樣了,開源已完全諸侯化。Meta / Llama 像一個被輿論遺忘的舊霸主,從前線退回軍械庫,仍保留開放權重的底盤,伺機死灰復燃。千問在用全尺寸和 Qwen Code 鋪開發者貨架。DeepSeek 用低成本和開放心智影響全球開發者。智譜用 GLM 系列搶 Coding 和 Agent 工程心智。Kimi 也在用 Agent Swarm 和開放模型爭開發者。字節未來如果開放更多多模態能力,會改變內容生成生態;小米可能在端側和裝置生態中形成開放能力;騰訊也可能通過雲、企業微信和產業網際網路形成自己的開放平台。所以開源不再是一面旗,它是一座兵器庫。誰開放模型,誰就能爭開發者;誰爭開發者,誰就能爭工具鏈;誰爭工具鏈,誰就能爭企業部署;誰爭企業部署,誰就能形成任務資料飛輪。這也是為什麼閉源模型公司必須緊張,因為開源不一定立刻超過閉源,但它會不斷壓低閉源模型的租金上限。10千問:模型貨架與雲後勤大國千問不能唯寫成“開源模型”。千問的真正特徵是:模型尺寸覆蓋度、開源矩陣、開發者工具、阿里雲分發和企業部署後勤。Qwen3.6-35B-A3B 被官方定位為具備 agentic coding 能力的 fully open-source MoE 模型;Qwen Code 則是面向終端的開源 AI Agent,用於理解大型程式碼庫、自動化繁瑣工作並幫助開發者交付程式碼。這像戰國裡的什麼?像後勤強國,它未必每次都最會造勢,但它有糧道,有市場,有雲,有開發者生態,有企業客戶,有模型矩陣。大模型打到最後,不只是猛將衝鋒,還要看誰能穩定供糧、供馬、供鐵、供箭。千問搶的是:中國大模型的模型供應鏈高地。這條路不一定最有戲劇性,但非常有耐力。如果阿里雲、釘釘、企業客戶、開源社區和 Qwen Code 等工具鏈持續打通,千問會成為中國企業和開發者繞不開的一面模型貨架。11Kimi從長文字名士到長程 Agent 新兵種Kimi 過去靠長文字打出心智,但長文字只是起點。Kimi 今天更應該被理解成:長程 Agent 和多 Agent 協作的探索者。Kimi K2.6 官方頁面強調它是 open-source model,具備 coding、long-horizon execution 和 agent swarm 能力;其官方部落格也把 Kimi K2.6 定位為面向 coding、agent swarm 和長程執行的開源模型。這說明 Kimi 的目標不是繼續停留在“讀長文”,它在從“讀得多”轉向“幹得久”。如果說長文字讓 Kimi 被使用者記住,那麼 Agent 決定 Kimi 能不能進入下一代工作流。用歷史隱喻看,Kimi 像一個原本文名動天下的諸侯,正在訓練新兵種。它不一定先正面攻城,但它在探索一種新打法:多 Agent 協同、長程任務、知識工作、文件生產、深度研究。Kimi 的關鍵問題是:能不能從使用者心智,走向生產系統;能不能從長文字體驗,走向穩定任務執行;能不能從爆款產品,走向工作基礎設施。12智譜,國產 Coding 新軍不再只是政企標籤智譜過去經常被歸入政企、國產化、知識工程,但現在這個標籤已經不夠。更準確地說,智譜正在努力從“國產政企模型”轉向“國產 Coding 和 Agent 工程模型”。Reuters 對 GLM-5 發佈的報導提到,GLM-5 是開源模型,增強了 Coding 能力和長程 Agent 任務執行;Z.ai 官方也把 GLM-5 定位為面向 complex systems engineering 和 long-horizon agentic tasks 的模型。這一步很重要,中國大模型如果只做政企問答,很難形成全球心智,但如果能在 Coding 上打出聲量,就能進入開發者、工具鏈、軟體生產方式。智譜像一個原本有正統資源和制度連接的諸侯,開始重新練兵,攻最硬的城:程式碼城,它的挑戰是:能否持續把 Coding 心智打出來;能否形成開發者生態;能否從模型能力變成工具鏈和生產系統。如果做成,智譜會重新定義自己的位置。13MiniMax:多模態產品先鋒與字節不是同一種打法MiniMax 不能簡單和字節合併,它們都做多模態,但底層氣質不同。字節是多模態內容帝國候選者,強在分發和商業閉環,MiniMax 更像多模態產品先鋒,強在視訊、語音、音樂、陪伴、娛樂、Agent 產品化和全球化應用矩陣。MiniMax 像吳越水軍。它不一定在中原模型總榜上每天喊殺聲最大,但它在水戰裡有自己的船、有自己的路線、有自己的場景,陪伴、娛樂、語音、視訊、全球 C 端產品,這些不是邊角料,它們是 AI 從生產力工具擴散到情緒價值、內容消費和日常生活的關鍵戰場。14小米:端側智能入口的潛伏者小米不應該被放在大模型榜單裡直接比較,但它必須出現在未來變數裡,因為小米手裡有:手機、汽車、IoT、智能家居、可穿戴裝置、HyperOS、硬體供應鏈、消費電子心智、端側入口。小米的威脅不在今天的大模型總榜,它在未來端側 AI。如果 AI 真正進入手機、車、家庭和可穿戴裝置,小米手裡的不是一個模型,而是一張真實世界的入口網路。它像邊地蓄勢的強國,暫時不在中原會盟中心,但一旦端側智能成為主戰場,就可能突然進入核心戰局。15百度:舊技術大國的再組織者將Meta和百度重提一筆是向曾經的他歷史貢獻致敬,百度不能簡單寫成“掉隊”,它確實在第一輪大模型產品心智戰裡失去了先發敘事,但它仍有搜尋、雲、地圖、自動駕駛、文心、企業客戶和技術積累。百度的 ERNIE 5.0 官方資料稱其為 2.4 兆參數的 unified multimodal model,統一整合文字、圖像、視訊和音訊;中國日報也報導其具備全模態理解和生成能力,並面向個人使用者、企業和開發者提供。百度不是沒有資產,而是資產沒有形成新的戰國心智。它像舊技術大國:城池還在,糧倉還在,舊將還在,但新的軍制、新的敘事、新的民心沒有完全打出來。百度如果要重回主線,必須證明它能從搜尋、雲、自動駕駛、地圖和企業 AI 中重新組織一條新主線。否則,它會成為“有資源但缺少新心智”的舊諸侯。16三強成勢新戰國的主線仍然是OpenAI、Anthropic、DeepSeek雖然諸侯很多,但主線仍然可以壓成三條。第一條:通用入口權,OpenAIOpenAI 代表的是使用者進入 AI 世界的默認入口,它的問題是,入口必須升級成工作制度,否則它會有流量,但丟掉高價值任務。第二條:任務執行權,AnthropicAnthropic 代表的是 AI 能不能真正進入程式碼庫、工具鏈、電腦和企業生產系統,它的問題是,任務心智必須升級成平台和分發,否則它會強在開發者和企業任務,但很難成為普遍入口。第三條:成本曲線權,DeepSeekDeepSeek 代表的是智能能不能足夠便宜,便宜到企業願意大規模呼叫,便宜到 Agent 可以長時間運行,便宜到國產算力生態真正接住它。它的問題是,成本優勢必須升級成系統、工具鏈和治理,否則它會成為最強發動機供應商,而不是完整帝國。這三條線,是今天大模型戰爭最核心的三條命脈。誰控制入口,誰控制使用者習慣。誰控制任務,誰控制企業預算。誰控製成本,誰控制規模化普及。但現在還必須補上三條隱線。第四條:即時世界解釋權,xAI這條線不一定馬上決定企業核心系統,但它會決定 AI 是否真正理解當下。如果未來 AI Agent 要做投研、輿情、品牌、公關、新聞、金融、銷售、客服、國際局勢判斷,它不能只靠靜態訓練語料,也不能只靠傳統搜尋。它必須接入即時世界,這就是 xAI 的位置。xAI 不是三強之一,但它是一支不可忽視的側翼強軍,它不一定攻城最多,卻可能最先知道城門什麼時候開。第五條:多模態內容權,字節字節不是通用語言模型強國,但它可能是多模態內容戰爭裡的強國,如果未來內容生產從人類剪輯師、廣告團隊、影視預演團隊、短影片創作者,逐步遷移到多模態生成系統,字節的價值會重新被定義。它不是搶文字模型的王座,它搶的是未來內容工業的生產線。第六條:虛擬世界生成權,騰訊騰訊也不是通用大模型正面戰場的最強聲量玩家。但如果未來戰場從文字、程式碼、視訊,進一步走向遊戲世界、虛擬人、3D 資產、NPC、互動劇情和社交空間,騰訊的優勢會變得非常特殊。它不是在等一個聊天機器人爆款,它可能在等虛擬世界模型真正成熟的時刻。十七、誰最像秦?誰可能最後掃六合?如果一定要問:誰會成為 AI 時代的秦?我認為現在還沒有真正的秦。但有幾個秦國候選。Anthropic 像法家秦。它有紀律、邊界、任務執行力和企業可信。它最接近高價值任務的軍功體系。OpenAI 像舊王朝再造。它有名分、人口、入口和財富。如果能把 ChatGPT 變成工作制度,仍有機會再造帝國。Google Gemini 像資源型大國。它有全端資源、雲、晶片、搜尋、辦公、Android和 DeepMind。如果組織協同足夠強,最有大一統國力。DeepSeek 像變法強國。它改變成本結構,讓所有人重新計算軍費。如果能補上 Agent 基礎設施、開發者生態、企業治理和部署體系,它會從成本強國走向制度強國。xAI 像掌握情報網的邊地強國。它未必馬上稱帝,但它如果把即時世界、X 資料、Web Search、程式碼執行、馬斯克產業場景串起來,可能成為“即時世界模型”的核心玩家。字節像多模態內容水師。它不一定能在中原語言模型戰場正面稱王,但它可能從內容工業的水路繞後,重寫視訊、廣告、電商、娛樂和創作者生態。騰訊像虛擬世界伏兵。它未必在今天的大語言模型榜單上稱王,但它手裡的遊戲、社交、3D、雲和內容資產,讓它有機會在虛擬世界模型時代突然變成核心玩家。但秦最終能掃六合,不只是因為能打。秦有法度,有郡縣,有道路,有度量衡,有持續組織能力。對應 AI,就是模型能力、成本能力、入口分發、Agent 執行、開發者生態、企業治理、安全審計、端側觸點、雲和算力、即時世界資料、多模態內容生產線、虛擬世界生成能力、真實任務資料飛輪。只有把這些串起來,才可能從強國變成帝國。現在沒有一家公司完全做到。18未來終局不是馬上秦並六國而是長期多帝國分治我的判斷是:第一階段:新戰國也就是現在。OpenAI、Anthropic、DeepSeek 三強成勢;Google、xAI、字節、騰訊、千問、Kimi、智譜、MiniMax、小米、百度等諸侯各守高地。這個階段不會很快結束。因為每家公司都有真實資源,不是靠 PPT 活著。第二階段:三強主線收斂,三條側翼崛起未來一到兩年,產業敘事會繼續圍繞三條線展開:OpenAI 的入口;Anthropic 的任務;DeepSeek 的成本。但同時,三條側翼會變得越來越關鍵:xAI 的即時世界;字節的多模態內容;騰訊的虛擬世界。這三條側翼,短期未必取代主線,但可能改變主線。因為 AI 不只是問答,不只是寫程式碼,也不只是便宜呼叫,它還要理解此刻的世界、它還要生成內容、它還要生成空間、它還要進入遊戲、社交、娛樂、金融、廣告、電商、媒體和真實產業。第三階段:多帝國分治長期看,我不認為會出現一個絕對秦始皇,因為 AI 的場景太複雜,金融要合規,開發者要效率,消費者要入口,內容行業要多模態,遊戲和社交要虛擬世界,雲廠商要模型供應鏈,政府要可控,機器人要端側和即時,企業要權限、審計、治理,創業公司要低成本,全球市場還受地緣政治和資料主權影響。這不是一個模型能全部吃掉的世界,更可能的終局是:OpenAI 型入口帝國;Anthropic 型任務帝國;DeepSeek 型成本與開源基礎設施帝國;Google 型全端資源帝國;xAI 型即時世界情報帝國;字節 / MiniMax 型多模態內容帝國;騰訊型虛擬世界與社交空間帝國;千問 / 智譜 / Kimi 型中國開源與 Agent 工程諸侯;它不會是一個皇帝治理天下,更像多個帝國長期分治。19大模型王座碎了但帝國戰爭才剛開始昨天我在一個很小的AI天才少年群裡問大家,DeepSeek V4你們的體感如何,其中一位說:時代變了DeepSeek V4 之後,最值得記住的不是“誰今天第一”,而是這個時代已經變了,大模型不再是一次發佈會決定天下,也不再是一個 benchmark 決定王座,更不是一個模型名號就能號令諸侯。它進入了新戰國。OpenAI 的名分還在;Anthropic 的軍制在變強;DeepSeek 的成本變法震動天下;Google 的全端國力深不可測;xAI 掌握即時世界的情報網,像戰國斥候和快馬驛站,未必佔城最多,卻可能最先知道天下風向;字節的大語言模型沒有立住,但在多模態內容戰場鋒芒漸露;騰訊隱忍不發,未來可能在虛擬世界模型上突然亮劍;千問在修後勤;Kimi 在練新兵種;智譜在攻程式碼城;MiniMax 在起水軍;小米守端側入口;開源則從 Meta 的獨角戲,變成天下諸侯共用的兵器庫。誰會成為 AI 時代的秦?現在還沒有答案,但有一個判斷已經很清楚:未來真正能一統局部天下的,不是今天最會聊天的模型,而是那個同時掌握入口、任務、成本、生態、治理、即時世界、多模態內容、虛擬世界和真實場景的系統型公司。在那之前,天下不會一統,天下會繼續混戰。而混戰本身,就是大模型時代真正的開始。 (Space AIThinker)
高盛:DeepSeek V4背後誰是最大贏家?
看了下高盛的總結,的確相對市面上一般的分析會更深入,資料和內容更詳實一些,同時從價值層面出發,會有一些判斷。我先最精簡的幫大家劃出DS V4的重點,圍繞16個字“業務專注、體驗提升、成本下降、國產適配:1、業務專註:還是聚焦長文字,不像當前市面上的主流大模型廠商都是多模態2、體驗提升:上下文支援到100萬了,能讀的檔案更長了,一次性1000頁合同的樣子3、成本下降:通過技術架構升級,降低記憶體和kv快取,所以成本大幅下降4、國產適配:擁抱國產算力,華為昇騰(Ascend)950超級節點在2026年下半年大規模供貨。所以,價格還會有很多的空間。當然也看到deepseek自己的論文裡面也提到了,和國外的技術差距還有3-6個月(高盛提到的排行榜裡,DS V4排第七,前五都是美國的)。這一點很重要,既要突破、創新,也要承認不足。但是,相信我們有後發優勢,最終能反超。因為AI最終看的是整個產業鏈的基建能力。當然,作為高盛,最後肯定會往價值層面去講。高盛認為真正的紅利將湧向底層基礎設施。計算成本的大幅下降,正是AI應用大規模爆發的關鍵前奏!下面展開講講。一、 DeepSeek V4:一次效率的“量子躍遷”DeepSeek最新發佈的V4模型,延續了其對計算效率和開源路線的專注,帶來了兩項震撼升級:1. 百萬上下文,成本驟降90%以上!超長上下文支援V4的Pro和Flash版本均支援100萬令牌(1M) 的上下文窗口,達到國際先進水平。記憶體需求銳減實現此功能所需的記憶體/KV快取,僅為前代V3.2模型的7-10%!這意味著運行長上下文任務(如複雜智能體應用)的成本急劇下降,為AI Agent的普及掃清了關鍵障礙。2. 三大技術架構突破報告詳細拆解了其背後的三大關鍵技術升級:混合注意力架構(CSA+HCA)大幅壓縮KV快取,減少長序列處理所需的臨時記憶體。mHC(改進訓練穩定性)使模型在深層資訊傳遞時更穩定。Muon最佳化器針對複雜架構的穩定訓練方法。效果如何?資料說話:在100萬上下文長度下:V4-Pro推理計算量(FLOPs)降至V3.2的27%,KV快取降至10%。V4-Flash推理計算量降至10%,KV快取降至7%。3. 擁抱國產算力,價格還將下行報告指出一個關鍵訊號:DeepSeek預計,隨著華為昇騰(Ascend)950超級節點在2026年下半年大規模供貨,其Pro模型的API價格將迎來顯著下調,競爭力進一步增強。二、 模型競技場:戰火全面升級,分化關鍵顯現DeepSeek V4的開源,如同向湖中投下一塊巨石,激起了層層漣漪:1. 競品發佈潮來襲高盛列舉了緊隨其後的一波模型發佈:阿里的Qwen3.6-Max、騰訊的混元Hy3預覽、小米的MiMo V2.5、Kimi的K2.6,以及MiniMax可能於5月發佈的M3/海螺模型。2. 未來定價權取決於什麼?報告認為,程式碼能力、任務完成成功率以及多模態能力將成為模型差異化競爭和獲取定價權的關鍵。在衡量智能體實際工作能力的GDPval-AA排行榜上,DeepSeek V4系列表現領先(排第七,前五都是美國的)。3. 獨立公司的獨特優勢報告特別提到,相較於網際網路巨頭,獨立的AI公司(如MiniMax)憑藉更高的組織效率和敏捷的決策流程,能在模型設計與推理效率上建立優勢。這使得它們即使在競爭性定價下,也能實現可觀的毛利率。三、 基礎設施層:確定性最高的“賣水人”高盛最核心、最明確的觀點就是看好雲端運算與資料中心核心邏輯鏈:AI應用(尤其是企業級智能體和消費級AI助手)激增 → 驅動對AI算力(Token)需求的持續增長 → 改善雲服務的定價能力和利用率。提到了好幾家產業鏈公司,具體的大家看原文吧。深層影響:正如DeepSeek V4所展示的,計算成本效率的跨越式提升,將為AI應用更廣泛的探索、採納和普及打開前所未有的空間。模型層的“軍備競賽”,最終夯實的是底層“軍工廠”的基石。四、 網際網路巨頭:手握現金,面臨人才挑戰機遇:網際網路巨頭憑藉核心業務產生的強勁現金流,最有能力把握AI基礎設施/雲服務的宏大機遇。挑戰:為了與獨立的原生AI公司爭奪頂尖的AI晶片/模型人才,需要設立獨立的激勵計畫(例如,高盛指出字節跳動的豆包AI團隊已有此類安排)。市場動態:報告亦提及市場傳聞,騰訊和阿里巴巴可能正在洽談以超高估值投資DeepSeek。五、 市場全景:中國力量持續崛起1. 全球API用量排名攀升中國AI模型在全球平台OpenRouter的Token使用量排名中持續上升,在前列佔據多個席位。2. 整體份額增長中國AI玩家的整體市場份額在2026年以來呈現持續增長態勢。3. 消費級應用:豆包一騎絕塵豆包(字節跳動)在使用者參與度和日活躍使用者數方面保持絕對領先地位。2026年3月,整個AIGC聊天機器人領域的使用者參與總時長環比增長了36%,市場熱度不減。高盛認為,DeepSeek V4通過驚人的效率提升,正在加速中國AI模型層的競爭與分化,但這場競賽最確定的果實,將結在雲端運算與資料中心這片土壤上。技術的進步不斷拉低AI的應用門檻,而每一次門檻的降低,都意味著更廣闊的市場將被喚醒。對於關注這一領域的大家而言,或許更需要關注那些為整個生態提供“電力”和“算力”底座的公司,他們可能是未來最大的贏家。 (數之湧現)
首發被華為搶了!為了擺脫輝達,DeepSeek V4硬生生推遲了半年
如果頂尖AI模型被最佳化在華為晶片上運行,對美國而言將是“可怕的後果”——這是輝達CEO黃仁勳日前在採訪中說的。沒想到,他的話僅過了9天就一語成讖。4月24日上午,上百萬AI從業者抱著螢幕刷了一整天的DeepSeek官網。一隻靴子終於落地了。時隔145天,DeepSeek正式推送V4預覽版本。但讓開發者們“驚愕”的不只是這款模型的各種技術參數和1M長上下文標配,而是一行樸素簡短的灰色小字:“受限於高端算力,目前Pro版的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調。”這句話翻譯成大白話就是:延遲了半年也要適配華為晶片,DeepSeek這次大改動,就是一個訊號,國產大模型正在集體斷奶,努力擺脫對輝達的依賴。1為什麼遲到半年?算力“斷供”倒逼換芯DeepSeek V4原計畫在2026年春節前後發佈,但一拖再拖。從2月推到3月,又從3月延期到4月。期間友商們趁機“偷家”:OpenAI月更,Anthropic密集發佈Claude 4系列,而DeepSeek在這段時間裡卻長期沉默。當大家以為DeepSeek“掉隊”的時候,真正的內幕浮出水面。據知情人士透露,V4延期的核心原因並非模型本身的技術瓶頸,而是一場極其複雜的底層硬體大遷移:從輝達晶片全面轉向華為昇騰等國產晶片。過去DeepSeek所有模型都基於輝達晶片訓練,但V4要走一條完全不同的國產化道路。工程師們重寫了核心程式碼,完成了從輝達CUDA生態向華為CANN架構的底層遷移。從底層程式碼重寫到全端適配,這種體量的算力遷移本身就是巨大的工程挑戰。而這也解釋了為什麼DeepSeek一反常態放慢迭代速度。不是做不動,是把大量資源投入了國產晶片適配這場“硬仗”。2技術報告裡的“世紀同框”:華為與輝達並列寫進同一本帳DeepSeek在同步發出的V4技術報告中罕見地將華為昇騰和輝達共同寫進了硬體驗證清單:“我們在輝達GPU和華為昇騰NPU平台上驗證了細粒度EP方案。”這是DeepSeek第一次在正式文件中把華為昇騰和輝達並列。華為方面則正式宣佈,通過雙方芯模技術緊密協同,實現昇騰超節點全系列產品支援DeepSeek V4系列模型。昇騰950通過融合kernel和多流平行技術大幅提升推理性能,昇騰A3超節點系列產品全面適配。3黃仁勳的擔憂成真:輝達當天“急眼”最有戲劇性的一幕發生在V4發佈當天下午。華為官宣首發後,輝達官方技術部落格火速發文,宣佈DeepSeek V4已在Blackwell平台上完成適配,並曬出GB200 NVL72每使用者推理速度超過150 tokens/秒的實測資料。這份同日官宣,措辭專業、資料齊全,但搶發節點之急迫,將焦慮暴露無遺。為什麼?因為就在10天前,黃仁勳剛剛在播客中說過一句話:“如果DeepSeek首先在華為平台上發佈,那對我們而言將是災難性的。”他給出的理由是:如果中國頂尖AI模型被最佳化在華為晶片上跑得更好,輝達多年建構的CUDA生態護城河將不再牢固。事實上,黃仁勳自己也承認:限制對華出口晶片,短期會延緩中國AI,但長期只會逼迫中國建立自己的生態鏈。而像DeepSeek這樣的開源大模型如果都跑在國產算力上,輝達即便仍是市場第一,也“將不再是唯一”。4資本市場的反應:國產晶片類股直線拉升儘管V4-Pro版本目前僅限純文字,尚未上線多模態能力,且受限於算力吞吐有限,但這絲毫不影響資本市場的狂歡。4月24日上午,算力晶片類股盤中直線拉升,截至午盤,海光資訊大漲超10%,龍芯中科、中芯國際、通富微電、寒武紀、摩爾線程等龍頭股紛紛大漲。國產晶片類股的這波“直線暴漲”,是資本市場對AI算力自主邏輯的響亮投票。IDC報告顯示,2025年國產GPU與AI晶片廠商市場份額已攀升至41%,華為出貨量排名第一。按華為計畫,昇騰950將於2026年推出,2027年迭代到960,再到2028年的970,幾乎以“一年一代、算力翻倍”的速度向前衝刺。隨著DeepSeek V4在昇騰首發、超節點全面適配、寒武紀、海光、沐曦等國產GPU廠商紛紛加入全適配陣營,一個“國產模型+國產算力”的生態閉環正在加速形成。5遲到的V4,不只一款新產品,而是一聲號角在DeepSeek V4發佈稿的末尾,梁文鋒引用了《荀子·非十二子》裡的一句話:“不誘於譽,不恐於誹,率道而行,端然正己。”走出自己認定的路,走通它,不求速勝,但求不敗。DeepSeek V4因“換芯”遲到了半年。但當它在國產算力上完成Day 0適配、讓華為昇騰和輝達同台驗證的那一刻,它已經不再只是一款新模型。它是中國AI算力生態的一聲號角:從“沒得選”到“有的選”,這條路,DeepSeek和它的國產夥伴們,硬生生走通了。以後大模型跑在那家晶片上,中國終於可以自己說了算。 (縱我含情)